图形卷积网络(GCN)已显示出容易受到小型对抗扰动的影响,这成为严重的威胁,并在很大程度上限制了其在关键安全场景中的应用。为了减轻这种威胁,大量的研究工作已致力于增加GCN对对抗攻击的鲁棒性。但是,当前的防御方法通常是为整个图表而设计的,并考虑了全球性能,在保护重要的本地节点免受更强的对抗性靶向攻击方面面临着挑战。在这项工作中,我们提出了一种简单而有效的方法,名为Graph Universal对抗防御(Guard)。与以前的作品不同,Guard可以保护每个单独的节点免受通用防御贴片的攻击,该节点是一次生成的,可以应用于图中的任何节点(节点-Agnostic)。在四个基准数据集上进行的广泛实验表明,我们的方法可显着提高几种已建立的GCN的鲁棒性,以针对多种对抗性攻击,并且胜过大幅度的最先进的防御方法。我们的代码可在https://github.com/edisonleeeeee/guard上公开获取。
translated by 谷歌翻译
基于参考的超分辨率(REFSR)在使用外部参考(REF)图像产生现实纹理方面取得了重大进展。然而,现有的REFSR方法可以获得与输入大小一起消耗二次计算资源的高质量对应匹配,限制其应用程序。此外,这些方法通常遭受低分辨率(LR)图像和REF图像之间的比例错位。在本文中,我们提出了一种加速的多尺度聚合网络(AMSA),用于基于参考的超分辨率,包括粗略嵌入式斑块(CFE-PACKPMATCH)和多尺度动态聚合(MSDA)模块。为了提高匹配效率,我们设计一种具有随机样本传播的新型嵌入式PACKMTH方案,其涉及具有渐近线性计算成本的端到端训练到输入大小。为了进一步降低计算成本和加速会聚,我们在构成CFE-PACKMATCH的嵌入式PACKMACTH上应用了粗略策略。为了完全利用跨多个尺度的参考信息并增强稳定性的稳定性,我们开发由动态聚合和多尺度聚合组成的MSDA模块。动态聚合通过动态聚合特征来纠正轻微比例的错位,并且多尺度聚合通过融合多尺度信息来为大规模错位带来鲁棒性。实验结果表明,该拟议的AMSA对定量和定性评估的最先进方法实现了卓越的性能。
translated by 谷歌翻译
非本地注意力(NLA)通过利用自然图像中的内在特征相关性来带来单幅图像超分辨率(SISR)的显着改进。然而,NLA提供嘈杂的信息大量的权重,并且相对于输入大小消耗二次计算资源,限制其性能和应用。在本文中,我们提出了一种新的高效非局部对比度注意(Enca),以执行远程视觉建模并利用更相关的非局部特征。具体而言,Enca由两部分组成,有效的非本地注意力(Enla)和稀疏聚合。 ENLA采用内核方法来近似指数函数并获得线性计算复杂度。对于稀疏聚合,我们通过放大因子乘以专注于信息特征的输入,但近似的方差呈指数增加。因此,应用对比学习以进一步分离相关和无关的特征。为了展示Enca的有效性,我们通过在简单的骨干中添加一些模块来构建称为有效的非本地对比网络(ENLCN)的架构。广泛的实验结果表明,Enlcn对定量和定性评估的最先进方法达到了卓越的性能。
translated by 谷歌翻译
人员搜索旨在共同本地化和识别来自自然的查询人员,不可用的图像,这在过去几年中在计算机视觉社区中积极研究了这一图像。在本文中,我们将在全球和本地围绕目标人群的丰富的上下文信息中阐述,我们分别指的是场景和组上下文。与以前的作品单独处理这两种类型的作品,我们将它们利用统一的全球本地上下文网络(GLCNet),其具有直观的功能增强。具体地,以多级方式同时增强重新ID嵌入和上下文特征,最终导致人员搜索增强,辨别特征。我们对两个人搜索基准(即Cuhk-Sysu和PRW)进行实验,并将我们的方法扩展到更具有挑战性的环境(即,在MovieIenet上的字符搜索)。广泛的实验结果表明,在三个数据集上的最先进方法中提出的GLCNET的一致性改进。我们的源代码,预先训练的型号,以及字符搜索的新设置可以:https://github.com/zhengpeng7/llcnet。
translated by 谷歌翻译
域概括人员重新识别旨在将培训的模型应用于未经看明域。先前作品将所有培训域中的数据组合以捕获域不变的功能,或者采用专家的混合来调查特定域的信息。在这项工作中,我们争辩说,域特定和域不变的功能对于提高重新ID模型的泛化能力至关重要。为此,我们设计了一种新颖的框架,我们命名为两流自适应学习(tal),同时模拟这两种信息。具体地,提出了一种特定于域的流以捕获具有批量归一化(BN)参数的训练域统计,而自适应匹配层被设计为动态聚合域级信息。同时,我们在域不变流中设计一个自适应BN层,以近似各种看不见域的统计信息。这两个流自适应地和协作地工作,以学习更广泛的重新ID功能。我们的框架可以应用于单源和多源域泛化任务,实验结果表明我们的框架显着优于最先进的方法。
translated by 谷歌翻译
人员搜索旨在同时本地化和识别从现实,无折叠图像的查询人员。为了实现这一目标,最先进的模型通常在两级探测器上添加重新ID分支,如更快的R-CNN。由于ROI对准操作,该管道产生了有希望的准确性,因为重新ID特征与相应的对象区域明确对齐,但在此同时,由于致密物体锚,它引入了高计算开销。在这项工作中,我们通过引入以下专用设计,提出了一种无限制的方法来有效地解决这一具有挑战性的任务。首先,我们选择一个无锚的探测器(即,FCO)作为我们框架的原型。由于缺乏致密物体锚,与现有人搜索模型相比,它表现出明显更高的效率。其次,当直接容纳这种免费探测器的人搜索时,在学习强大的RE-ID功能方面存在几种主要挑战,我们将其总结为不同级别的未对准问题(即规模,区域和任务)。为了解决这些问题,我们提出了一个对齐的特征聚合模块来生成更辨别性和强大的功能嵌入。因此,我们将我们的模型命名为特征对齐的人搜索网络(SimblePs)。第三,通过调查基于锚和无锚模型的优点,我们进一步增强了带有ROI对齐头的对比,这显着提高了重新ID功能的鲁棒性,同时仍然保持模型高效。在两个具有挑战性的基准(即Cuhk-Sysu和PRW)上进行的广泛实验表明,我们的框架实现了最先进的或竞争性能,同时呈现更高的效率。所有源代码,数据和培训的型号可用于:https://github.com/daodaofr/alignps。
translated by 谷歌翻译
最近的研究表明,深层神经网络容易受到不同类型的攻击,例如对抗性攻击,数据中毒攻击和后门攻击。其中,后门攻击是最狡猾的攻击,几乎可以在深度学习管道的每个阶段发生。因此,后门攻击吸引了学术界和行业的许多兴趣。但是,大多数现有的后门攻击方法对于某些轻松的预处理(例如常见数据转换)都是可见的或脆弱的。为了解决这些限制,我们提出了一种强大而无形的后门攻击,称为“毒药”。具体而言,我们首先利用图像结构作为目标中毒区域,并用毒药(信息)填充它们以生成触发图案。由于图像结构可以在数据转换期间保持其语义含义,因此这种触发模式对数据转换本质上是强大的。然后,我们利用深度注射网络将这种触发模式嵌入封面图像中,以达到隐身性。与现有流行的后门攻击方法相比,毒药的墨水在隐形和健壮性方面都优于表现。通过广泛的实验,我们证明了毒药不仅是不同数据集和网络体系结构的一般性,而且对于不同的攻击场景也很灵活。此外,它对许多最先进的防御技术也具有非常强烈的抵抗力。
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译
Interview has been regarded as one of the most crucial step for recruitment. To fully prepare for the interview with the recruiters, job seekers usually practice with mock interviews between each other. However, such a mock interview with peers is generally far away from the real interview experience: the mock interviewers are not guaranteed to be professional and are not likely to behave like a real interviewer. Due to the rapid growth of online recruitment in recent years, recruiters tend to have online interviews, which makes it possible to collect real interview data from real interviewers. In this paper, we propose a novel application named EZInterviewer, which aims to learn from the online interview data and provides mock interview services to the job seekers. The task is challenging in two ways: (1) the interview data are now available but still of low-resource; (2) to generate meaningful and relevant interview dialogs requires thorough understanding of both resumes and job descriptions. To address the low-resource challenge, EZInterviewer is trained on a very small set of interview dialogs. The key idea is to reduce the number of parameters that rely on interview dialogs by disentangling the knowledge selector and dialog generator so that most parameters can be trained with ungrounded dialogs as well as the resume data that are not low-resource. Evaluation results on a real-world job interview dialog dataset indicate that we achieve promising results to generate mock interviews. With the help of EZInterviewer, we hope to make mock interview practice become easier for job seekers.
translated by 谷歌翻译
An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
translated by 谷歌翻译